[t:/]$ 지식_

증분 배치의 고단함

2025/05/14

몇 번 쓴 이야기지만.

  1. 주어진 툴로만 풀려니까 성능이 안 나오는 상황이다.
  2. 성능이 안 나오니까 증분 배치로 처리한다.
  3. 증분 배치로 처리하니까 upsert가 생긴다.
  4. 증분 배치로 처리하니까 겹침, 누락이 생기고 이를 체크하거나 복원해야 한다.
  5. 증분으로도 안 되는 것을 막기 위해 주말 심야 풀배치를 따로 돌린다.
  6. 광역 데이터에 영향이 발생하면 또 풀배치를 따로 돌린다.
  7. 예기치 않은 6번의 풀배치에 의해 다른 배치들을 중단시키거나 보정 배치를 돌려야 한다.
  8. 복잡해졌으니 실패지점 파악을 자세히 해야 한다.
  9. 실패 지점에 따른 복원 전략을 따로 구성해서 복원 배치를 만들어야 한다.
  10. 아 진짜..

어떻게 해결하나.

-> 그냥 고성능 풀배치를 만들면 된다.

오늘 발견한 레거시에서는 쿠두를 쓰고 있었다. 조회만 하는 것이라 그냥 하이브 물린 임팔라면 가능하지 않았나.. 왜 쿠두일까. 내가 잘 몰라서 그랬나...

... 아 증분배치가 있었구나. 증분이라 upsert를 하고 있다. insert overwrite를 한 번에 하면 하이브-임팔라면 된다.

아 진짜..

핵심이 아예 우수하면 무수한 수리 지점의 광역 삭제가 가능하다.

자꾸 완제품 툴로만 만드려니까 안 되는게 한 둘 발생하고 어어.. 그 한 둘 때문에 서 넛 파생이 발생하고 어어... 어버버... 한다.









[t:/] is not "technology - root". dawnsea, rss